F6: Samband mellan numeriska variabler och korrelation
Vi har pratat vagt om styrkan i ett samband, men kan vi på något sätt mäta hur starkt ett linjärt samband mellan två numeriska variabler är?
Vi lägger till att vi gärna vill ha ett mått som är oberoende av enheter
Exempel: Figur 6.2 och 6.3 i De Veaux et al. (2021) visar ett antal personers vikt och längd, och vi ser liknande samband oavsett om vikt ges i kg eller lbs
weight_pounds och weight_kg (vikt på olika bilmodeller)Nu standardiserar vi var och en av variablerna till z-värden enligt \[ z_i = \cfrac{x_i - \bar{x}}{s},\;\;\;\; \bar{x} = \cfrac{\sum_i x_i}{n}, \;\;\;\; s=\sqrt{\cfrac{\sum_i (x_i-\bar{x})^2}{n-1}}. \]
Genom standardisering byter vi enhet från kg eller pounds till standardavvikelser
Eftersom variablerna mäter samma sak förväntar vi oss att de ska få samma standardiserade värden
weight_poundsweight_kg\[r = \cfrac{\sum{z_x z_y}}{n-1}\]
Vi kommer ihåg att korrelationskoefficienten beräknas som \[ r = \cfrac{\sum{z_x z_y}}{n-1} \]
Vi ser i formeln att korrelationskoefficienten blir positiv om uttrycket \(\sum{z_x z_y}\) är positivt, och att korrelationen är starkare när uttrycket är stort
När uttrycket \(\sum{z_x z_y}\) är negativt blir korrelationen negativ, och om uttrycket är ett stort negativt tal är den negativa korrelationen starkare
data(trees)
plot(x=trees$Girth, y=trees$Height, pch=19, cex=1.5,
col="steelblue", xlab="Omkrets", ylab="Höjd")cor()
Slutsatsen om att fler storkar leder till fler människor är en kausal tolkning av korrelationen – den gör en utsaga om ett orsakssamband
Är slutsatsen rimlig? Skulle vi kunna få barn även om storkarna försvann?
Kanske är sambandet det omvända? Storkar bygger bon på skorstenar, och fler människor betyder fler hus med skorstenar där storkarna kan bygga bon
Allmänt bör vi vara försiktiga med att dra snabba slutsatser av det här slaget
Det betyder inte att kausalitet alltid saknas – ibland finns det kausalitet och ibland finns det inte
Det kan t.ex. finnas en dold variabel som förklarar både \(x\) och \(y\), och som gör det svårt för oss att identifiera kausaliteten helt
Huvudsaken är att det krävs mer utförliga och specifikt designade studier för att etablera kausala relationer
pairs() i ROm vi har flera variabler kan vi skapa en tabell med parvisa korrelationer
Tabell 6.1 i De Veaux et al. (2021) innehåller t.ex. en korrelationstabell för olika finansiella mått från Forbes
cor() även skapa en korrelationstabeller, men då måste vi ge en hel data frame som inputDessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj